Étude sur l'impact du sous-langage dans la classification automatique d'appels d'offres
نویسندگان
چکیده
Résumé: Dans cet article nous évaluons diverses approches pour filtrer le contenu « procédural » d’un document, et mesurons leur impact sur la classification d’une collection d’appels d’offres. Deux types d’approches sont testées : la sélection de termes à partir d’un vocabulaire de référence, constitué à partir des descriptions du schéma de classification, et le filtrage de phrases. Nous ne trouvons pas de différence significative entre le vocabulaire de référence et celui de la collection d’entraînement. Par contre le filtrage par phrases donne d’excellents résultats sur notre collection, et peu même avantageusement être combiné à d’autres techniques de sélection.
منابع مشابه
Violence du langage dans l’œuvre dramatique de Samuel Beckett : la quête du néant
L’homme beckettien représente grosso modo sur la scène de théâtre des années cinquante le spectacle de souffrance physique et de désintégration totale du sujet qui est le fait d’un trauma et d’un complexe plus profonds, celui du vide de matières scéniques et du mal fondamental qu’on traiterait d’existentiel. En d’autres termes, le mal est dans ce monde quelque chose d’inné chez l’être humain. C...
متن کاملÉtude des mesures de similarité sémantique basées sur les arcs
RÉSUMÉ. Les mesures de similarité sémantique sont des fonctions très utilisées dans plusieurs domaines de l’informatique parmi lesquels nous pouvons citer le Traitement Automatique du Langage Naturel (TALN), la Bioinformatique, la Recherche d’Information... Elles permettent de déterminer la similarité entre des termes ou concepts qui n’ont aucune ressemblance syntaxique. L’objectif de ce papier...
متن کاملTraiter les documents XML avec les « contextes de lecture »
RÉSUMÉ. Le langage XML autorise, par sa souplesse de structuration, des manipulations du contenu qui créent parfois des ruptures arbitraires dans le flot naturel du texte. Ces caractéristiques soulèvent des difficultés lorsque l’on souhaite mettre en œuvre des techniques d’analyse automatique du contenu des documents XML. Cet article présente cette problématique et y répond, sur le plan théoriq...
متن کاملEtude de l'impact du regroupement automatique de phrases sur un système de résumé multi-documents
RÉSUMÉ. Dans cet article, nous comparons les résultats produits par différentes approches de résumé multi-documents. Nous opposons deux approches classiques à la nôtre qui place la modélisation de la diversité informationnelle du corpus au centre du processus. Nous évaluons également l’impact de différentes mesures de similarité entre phrases. Les expériences, menées sur le corpus RPM2, montren...
متن کاملRegroupements non-disjoints de mots pour la classification de documents
RÉSUMÉ. La classification automatique de documents est un domaine d’étude en plein essor dans le domaine du Traitement et de la Recherche d’Information (RI). Dans un cadre supervisé, il s’agit alors d’entraîner un modèle de classifieur sur un corpus de documents étiquetés. La difficulté majeure consiste à représenter les documents par un nombre limité et suffisant d’attributs. Dans cet article,...
متن کامل